查看原文
其他

多因素回归不能用逐步回归法?那么我该怎么办?

郑卫军 医学论文与统计分析 2022-10-07

统计小食系列(10)


回归方法用来探讨疾病发生、发展和预后等结局的影响因素、控制混杂偏倚,也可以用于预测疾病结局。


回归方法实在用途太广了它是医学、护理学、公共卫生、心理学、社会学的基本方法,应该说无论哪一类统计学研究都会用到回归方法。写论文,这是绕不过去的!


所有的医学统计学教材都会涉及到回归,教大家如何建模,讲得非常之专业,留下的是瞠目结舌的阅读者。学不会,怎么办?回归方法虐了一代又一代的年轻人,但最后貌似大家还是学会了用它来写论文。看起来不错。


一般建回归模型,用的是先单因素后多因素的方法,也就是先一个一个自变量做单因素回归,把P值较小(比如P<0.2)纳入多因素回归模型,再结合逐步回归法进行自变量筛选分析。


咋就要先单因素再多因素,为什么要P值<0.2? 师兄会说,这是祖传的,你照做就行。


但都没有人告诉我们,我们学的这种回归建模技术是不一定对的。更重要的是,被称为很巧妙的逐步回归法,它基本上没有什么卵用!


在之前,郑老师的推文:多因素回归要不要做逐步回归法?美国top杂志《内科学年鉴》给出答案里面说,医学论文不要用逐步回归法!


好多朋友问我:为什么?那我们应该用什么方法来建模型?


好,我系统地梳理下,方便大家学习如果你看完觉得郑老师写得真好,别竖大拇指了,我看不见;也别给我送钱了,咱们浙江中医药大学有的是钱!给我个文章分享即可!


1.为什么先做单因素,再做多因素?

我们一定要先单因素后多因素吗?不是的。先单后多,是因为,回归模型要遵循一个基本原则:模型自变量越少越好!为什么?因为回归分析自变量太多,建模会失败。一把来说,一个线性回归模型,需要5-10以上的样本量;logistic需要10-15倍的样本量。那么有限的样本量,你不能一下子把所有的感兴趣的变量全部放进去,那样肯定无法成功形成回归模型。所以只好挑选有可能有统计学意义的自变量纳入?怎么挑?先做单因素吧,把P值较小的纳入多因素回归!


但一定要先单后多吗?不一定,如果你样本量很大,自变量个数也不多,完全没有必要!毕竟,先单后多肯能会让你遗漏本来会有统计学意义的变量。


2.逐步回归法到底有什么用?

不可否认的是,逐步回归法是个好方法,它遵从的原则,就是模型自变量越少越好!但是,自变量少了肯定有问题,怎么办,它就提出另外一个筛选原则:通过反复挑选自变量,使得模型的模拟度(也就是对真实世界研究的仿真度)不差、且自变量个数最少。一般模拟度采用用R2(R平方)或者-2log对数似然比评价。


也就是,它通过操作,挑选出少数的自变量,就可以构建一个对真实世界研究很好预测功能的方程。看起来也很美好!筛选简单的几个变量就可以预测乳腺癌发病风险,多好!


国内生物统计学泰斗,中山大学方积乾教授说:对于要筛选变量,建立一个用于预测健康结局的回归方程,逐步回归法是一种优秀的方法。


因此,我不是说逐步回归法不好用。


3.为什么逐步回归法不适合大多数的医学研究

事实上,大多数医学研究采用回归分析并不是建立一个预测模型,更主要探讨:影响疾病发生或预后的结局的因素是什么、或者控制混杂因素,重点聚焦某一个因素对疾病结局的作用。基本上,大多数模型的模拟度会很小(比如R2不到0.2),但不妨碍我们建一个回归模型。我们也不看重模型对现实世界的仿真度,一般只探讨,这些变量对结局是否有影响(P是否小于0.05),或者b值是否不等0、OR值、RR值是否不等于1。


此时,逐步回归法则是一种粗暴的手段,它无视自变量之间的相互关系,完全是数据导向,非常有可能淘汰本来对疾病结局有影响、但不是那么重要的因素。


打个比方,我们学院医学统计学教研室就是一个回归模型,自变量就是我们教员,逐步回归法的意思,是学校不管教员之间的关系如何,是不是偷懒,它只要求,一年你们把所有的医学统计学课程全部拿下,不出事故,完成既定的科研任务;一旦如此,你们每个人上多少课、你们之间是否勾心斗角,学校是不管的。领导们就撂下一句话:你们自己问题自己解决。


所以,我经常跟学生说,逐步回归法是Garbage in,Garbage out的方法,不是什么好东西


4.我该用什么方法进行回归自变量筛选?


有人会问,郑老师,逐步回归法不是解决多重共线性吗?万一有多重共线性怎么办?


很遗憾,国内医学统计学教学很少介绍多重共线性处理,哪怕是研究生教学;国内教学往往只说多重共线性和及其处理手段,好像也不提为什么会有多重共线性。


多重共线性究竟怎么产生?


其主要是自变量之间相关,甚至是高度相关。那么为什么自变量会相关?常见有三点原因引起多重共线性:1.存在着混杂因素会相关;2存在着中间变量会相关、3、存在着共同原因会相关。最常见的是前两者。


举例:若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平。探讨随访血糖的影响因素,如果用箭头表示因果关系。大家可以看出,自变量胰岛素、基线血糖、糖尿病直接存在着复杂的关系,有些是中间变量,有些是混杂变量。

实际上,我们在探讨影响因素时,必须要考虑的情况是,第一,混杂因素必须纳入模型,第二,中间变量又不能纳入模型。


所以多重共线性问题的确应该要重视起来。但如果你认为存在着多重共线性,就采用逐步回归法,显然会乱杀、错杀,结果可能没有你想象那么好。


那我应该用什么方法?

  1. DAG的方法来筛选自变量

  2. 采用效应改变法筛选自变量

这两种方法,我都有在之前的推文都有详细的陈述,如果有兴趣,可以看推文尾部的链接。


5. 案例分析

最近一期《柳叶刀肿瘤杂志》写了一篇文章,探讨儿童癌症器官移植的生存分析,采用就是效应改变法(Change-in-Estimate法)筛选自变量

该文主要探讨不同性质的器官移植方式对儿童生存结局的影响,但是由于是回顾研究,必然会存在着混杂因素,因此采用COX回归控制混杂因素。怎么弄?首先他通过单因素回归筛选P值<0.1纳入多因素回归,然后采用效应改变法筛选自变量(Change-in-Estimate法)。

有兴趣的朋友可以研究一下该文章。

DOI 码为10.1016/ S1470-2045(19)30418-8 ,一般用SCI-hub可以下载。


本文结束,感谢阅读。


如何构建回归模型系列推文

1.真实世界数据分析(1): 为什么是回归方法
2.困扰多年的问题:如何筛选自变量建立多因素回归模型
3.真实世界数据分析(3):基于DAG方法进行自变量的筛选
4.真实世界研究(4):简单案例分析中介变量的影响
5.先单因素后多因素----回归分析自变量筛选的常见方法
6.真实世界数据分析(6):自变量筛选的Change-in-Estimate法介绍

统计小食系列推文

(1)数据不是正态分布还能做t检验吗? 
(2)当正态、偏态、率的数据狭路相逢,如何绘制规范医学论文表格
(3)基本统计研究七宗罪,你犯了几条?来投个票吧
(4)方差分析后两两比较,究竟应该用哪种方法?
(5)再论“数据不是正态时,是否可以采用t检验?”
(6)“我的研究是基于量表的调查,如何计算样本量?”
(7)两组均数比较,可以用方差分析吗?谈谈结果一样的那些统计方法。
(8)趋势性检验还不会做?来看看最基本的趋势性检验方法
(9)临床研究基线均衡性比较除了用P值大小来反映,还可以用这种方法!


诸位,本公众号现在已经形成包括“样本量估算方法”“医学研究进展”“论文的统计表达方法”“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存